Máster en Data Science para finanzas

Práctica proyecto de Machine Learning

Autores:

- González Díaz, Guillermo

- Sebastiani, Carlos

Enlaces a GIT :

- Será añadido cuando finalice el plazo de entrega

Nuestros datos :

Nos enfrentamos a la base de datos de accidentes de tráfico ocurridos en Canadá entre los años 1999 y 2014, del informe "Canadian Motor Vehicle Traffic Collision Statistics", elaborada en cooperación con el gobierno de Canadá.
Esta tabla está compuesta de 5,860,405 filas y 22 columnas. Cada fila representa una persona involucrada en un accidente de tráfico.

Objetivos del trabajo:

El objetivo del trabajo será crear un modelo de Machine Learning que, habiendo una persona implicada en un accidente, calcule la probabilidad de que al menos haya una víctima mortal en dicho accidente.

Diccionario de datos:

Todas las columnas incluyen valores como QQ, UU, XX, NN, UUUU, o XXXX. Las Us hacen referencia a desconocidos. Las X, a datos que no han sido aportados por la jurisdicción y las N a elementos no aplicables.

image-2.png

EDA:

Librerias necesitadas:

Cargamos nuestros datos :

Visualizamos el número de accidentes mortales/no mortales así como sus porcentajes:

Workflow:

1. Evolución en el tiempo

2. Día de la semana

3. Hora del día

4. Edad y día de la semana

5. Carretera

6. Sexo y tipo de vehículo

7. Configuración del accidente

8. Condiciones climatológicas

9. Medidas de seguridad utilizadas

10. Número total de fallecidos en el período, sexo y períodos vacacionales.

1. Evolución en el tiempo:

Conclusiones

  1. El número de accidentes total tanto como los accidentes mortales se han reducido en el tiempo, pasando de 7,500 en el año 1999 a 4,500 en el 2014.
  2. En estos casi 20 años, la mortalidad por accidente se ha reducido de un 1,83 % a un 1,51 %.

2. Día de la semana:

Conclusiones:

  1. El día de la semana con mayor número de personas involucradas en accidentes es el viernes, que representa un total del 17 % de los accidentes.
  2. La mayor mortalidad se da los fines de semana, viernes, sábados y domingos. Especialmente el sábado, que se lleva un 18.1 % de los accidentes mortales.
  3. Respecto al número de accidentes, es bastante similar durante todos los días de la semana, aunque como ya hemos dicho, con mayor tasa de mortalidad los fines de semana.
  4. El número de desconocidos es mínimo, encontrándonos solo con 13 accidentes mortales. Por este motivo, nos tomamos la libertad de imputar esos valores desconocidos por domingos, ya que la diferencia no será significativa.

3. Hora del día:

Conclusiones:

  1. Analizando los accidentes por hora hemos visto que el mayor número de accidentes se dan a entre las 3 y las 5 de la tarde. Solo en estas tres horas del día se han dado el 25 % de accidentes.

  2. Si hablamos de muertes en términos globales, en el gráfico de abajo veremos que la mayoría de víctimas mortales se producen entre las horas comprendidas entre las 15 y las 18 de la tarde, lo que es lógico teniendo en cuenta el punto anterior.

  3. Analizando en general el hecho de que se porduzca un accidente con víctimas mortales, es igualmente más elevado entre las 15 y las 18 en términos globales. Sin embargo, en términos de porcentajes, vemos que son mucho más letales los accidentes que se producen en la madrugada a partir de las 00 y hasta las 6, donde la tasa de mortalidad se dispara hasta alcanzar máximos del 4.2 %.

  4. Entre las 00 y las 5 de la mañana, pese a que el porcentaje de accidentes es bajo, esas horas se llevan más del 24 % de accidentes mortales, lo cual es llamativo viendo la cantidad de accidentes que se dan a una hora y a otra. En los gráficos circulares de abajo queda bastante clara esta idea.

4. Edad y día de la semana:

Conclusiones:

  1. En la gran mayoría de accidentes están involucradas personas entre 22 y 56 años, que suponen el primer y tercer cuantil del boxplot dibujado aquí abajo. La mediana de personas involucradas en accidentes mortales vemos que está en torno a los 35 años.
  2. Existe relación lineal entre edad y número de accidentes y también entre edad y accidentes mortales, siendo más elevadas en personas jóvenes. Lo cual tiene sentido porque suponen la gran mayoría de la muestra.
  3. La mortalidad es mucho más elevada en personas de mayor edad, puesto que hablamos de una parte de la población más vulnerable. Y vemos abajo, que en ocasiones esa mortalidad llega a alcanzar valores del 7 %.
  4. El grupo de edad que supone el mayor número de muertes en porporción es el que va de entre de entre los 16 a los 25 años. Y la peor edad, los 18. Suponen el 3 % de accidentados con víctimas mortales. Provocado quizás por un exceso de confianza, poca experiencia al volante y al caer mayormente en fines de semana y vísperas, concluimos que el efecto del alcohol será otro factor importante, pero no disponemos de esa información.
  5. Combinando todas las representaciones de este apartado, podemos concluir que el grupo de edad con más riesgo es el comprendido entre los 18 y los 40: tanto como por cifras globales como porcentuales, son los que más riesgo presentan y más accidentes mortales. Especialmente en fines de semana y vísperas.

Comprobamos que nos encontramos con la mayoría de personas que han provocado accidentes mortales se encuentran en el rango de edad de entre 22 y 56 años. Nos encontramos con mímimos de 1 año hasta máximos de 97 años. Los outliers que nos aparecen son los que hemos imputado a los valores desconocidos.

Relación lineal edad:

Edad y día de la semana:

Accidentes totales:

Representaciones gráficas:

Accidentes mortales:

Represenatción gráfica:

5. Tipo de vía

Conclusiones:

  1. A simple vista, es muy llamativo que en "7", lo que equivale a carriles extra que a veces se usan para que los vehículos más lentos, como camiones, no entorpezcan la circulación. Sirven para mejorar la congestión así como la seguridad, pero vemos que son los que presentan mortalidad más elevada. No obstante, en número no son significativos.
  2. Vemos que la mayoría de accidentes se reparten entre 1 (non intersection) y 2 (intersection). Entendemos 1 como pasos de cebra y 2 como una intersección de al menos dos vías.
  3. Es llamativo que las siguientes categorías, que suman un 10 % del total de accidentes, sean valores desconocidos (QQ y UU)
  4. Mirando la gráfica, vemos que representan alta mortalidad, después de lo comentado aquí, los pasos a nivel y los carriles de incorporación de la autopista.

6. Sexo y tipo de vehículo:

Conclusiones

  1. En el 70 % de accidentes mortales están implicados turismos, con un total de 4,827,390 de accidentes sobre el total, y el 83 % de accidentes totales.
  2. Los hombres representan el 54 % mientras que las mujeres el 41 % de los implicados en un accidente. El el total, los hombres estuvieron involucrados en 65,055 accidentes mortales mientras que las mujeres en 30,683.
  3. Los hombres están involucrados en el 65 % de accidentes que incluyen víctimas mortales.

  4. Si miramos el resto de vehículos relevantes, encontramos que en 17, 11, 14, 6, 7 y 8 los afectados por el accidente eran principalmente hombres. Esto son, tractores, camiones, pequeños camiones, y furgonetas, que es el único tipo en el que podemos ver un porcentaje relevante de mujeres afectadas.

  5. El único punto en el que hombres y mujeres muestran cifras similares, es en el número de accidentados cuando se trata de peatones, aunque otra vez el hombre presenta mayores tasas de mortalidad.

  6. Después nos encontramos con motos (3.7 %) y con ciclistas (1%).

  7. Nos encontramos con un 7 % de accidentes mortales de los que nos disponemos información del tipo de vehículo implicado en el accidente.
  8. Analizando los gráficos normalizados se observa que peatones sufren accidentes y muertes en la misma proporción hombres y mujeres. Proporcionalmente, hay muchos más hombres que conducen vehículos tipo: tractores, pequeños camiones, motos... y que accidentes mortales en School buses y fire engines son inexistentes en mujeres.
  9. Vemos que los accidentes de las mujeres se encuentran repartidos principalmente entre peatones y vehículos utilitarios. Los accidentes de los hombres están más repartidos entre otro tipo de vehículos, pero utilitarios sigue siendo el más común.
  10. Como conclusión final, hemos observado que independientemente del tipo de vehículo y una vez con datos normalizados, que los hombres tienden a presentar mayores tasas de mortalidad en todos los aspectos.

Sexo y tipo de vehículo:

Total de accidentes dependiendo del vehículo y el sexo:

Total de accidentes mortales dependiendo del sexo y tipo de vehículo:

Ajustes y representaciones gráficas:

7. Configuración del accidente:

  1. El 30 % de los accidentes se producen de choque por detrás, y vemos que no son mortales casi en ningún caso, solo en el 0.3 % de los casos (total de 6,513).
  2. La gran mortalidad se la llevan los choques frontales, donde se eleva al 11%. Suponen solamente el 3 % de los accidentes pero el 22 % de las muertes.
  3. La siguiente categoría con mayor mortalidad son los choques desde la derecha, que suponen el 14 % de los accidentes y el 12 % de todas las muertes.
  4. Por último de la tabla, destacamos los giros a la izquierda traspasando carril en dirección contraria: suponen el 7 % de los accidentes y el 4 % de las muertes.
  5. Si miramos el gráfico, vemos en barras el porcentaje de accidentes y en línea roja el porcentaje de mortalidad, donde se ve de forma clara lo comentado en el punto anterior.

8. Condiciones climatológicas.

Temperatura media anual en Canadá: Tiempo en Canadá

Horas medias anuales de luz en Canadá:

image.png

Precipitaciones medias en Canadá:

image.png

Conclusiones:

  1. La gran cantidad de accidentes se dan cuando los días son claros y soleados, en un 70 %.
  2. Las muertes, también se da cuando el clima es así, en un 65 %
  3. La mortalidad sin embargo, es mucho más elevada en las siguientes situaciones: cuando está nublado, helada, nieve o niebla. Estos 4 factores juntos suponen el 22 % de los accidentes mortales.
  4. La distribución de los accidentes tiene sentido mirando las gráficas del clima en Canadá. Nos encontramos con que los accidentes cuando el día es soleado siguen una sitribución idéntica a las horas de luz en Canadá a lo largo del año, con máximos en julio y agosto y disminuyendo en ambas direcciones opuestas.
  5. Viendo las gráficas, nos encontramos con accidentes y fallecidos provocados por las nevadas en los meses fríos del año, entre noviembre y marzo.
  6. Las precipitaciones mantienen una distribución constante durante todo el año, así como los accidentes provocados por ella. No vemos un patrón claro.
  7. Lo mismo ocurre cuando el día está nublado

Representaciones gráficas:

9. Medidas de seguridad utilizadas:

Conclusiones

  1. Vemos que el 71 % de personas que sufren accidentes, utilizan medidas de seguridad.
  2. No obstante, un 4 % de los accidentados no usaron medidas de seguridad. Y sin embargo, suponen el 16 % de implicados en accidentes mortales, esto no debería ser llamativo.
  3. De la tabla df_seg nos llama la atención la gran cantidad de valores desconocidos.
  4. Observando la gráfica de abajo, podemos ver cómo la mortalidad se dispara cuando no se usaron las medidas de seguridad apropiadas. Nos hemos encontrado con otro pico en "con casco", por lo que hemos pasado a estudiar la mortalidad de accidentes con moto por separado en el último punto de este apartado.

10. Número total de fallecidos en el período, sexo y períodos vacacionales.

La variable P_isev nos dice si esa persona murió o no en el período posterior al accidente. Esta variable la hemos descartado en nuestro modelo, puesto que es un dato que se desconoce a la hora del accidente. No obstante, queríamos dar una pincelada para analizar el total de fallecidos.

  1. El valor 3 es que la persona falleció, entonces nos encontramos con un total de 40,354 fallecidos en Canadá entre 1999 y 2014.

  2. Existe una correlación perfecta viendo la representación de las series en escala logarítmica. Esto resulta evidente, puesto que no puede existir accidentes mortales si no hay primero accidentes.

  3. Del total de fallecidos, los hombres suponen más que el doble que las mujeres (27k vs 12k)

  4. Por último, hemos analizado el componente mensual. Vemos claramente patrones en los meses de verano y Navidad. Julio, agosto, septiembre y diciembre son los meses con más mortalidad, coincidiendo con los períodos típicos de vacaciones. Sin embargo, en números absolutos de accidentes vemos durante el año un comportamiento parecido. Agosto sigue siendo el líder, pero las diferencias son menos que cuando hablábamos de accidentes mortales. El mes que representa menos accidentes así como menos fallecidos es abril.

Comprobamos que la tendencia se comporta exactamente igual que la de accidentes en el primer apartado de este trabajo. Por lo tanto, es evidente que existe una correlación positiva entre a mayor número de accidentes mayor fallecimientos, vamos a comprobarlo: